COMANDI STATISTICA 


* 


% Statistica descrittiva 


ove —_ _ — ooo 
Cancella tutto rm(list=1s()) 


Lunghezza str() > num [1:10] 
length () > 10 


SA 
con tot a = sum(freq a) 


Coefficiente di variazione, cv sd()/mean() 
con mean in valore assoluto 


Boxplot boxplot (a, horizontal=TRUE, col="yellow") 
boxplot (a,b, horizontal=TRUE, 
main="titolo”, 
names=c("a","b"), 
col=c("orange","lightblue")) 
plot a,b, colm" rea] 


Confronto tra percentili > length non qqplot (a,b, col="red") 
uguale 
Istogramma hist () 

breaks=numero, è il n°di classi 


pie(tabella frequenze) 
q 


cov ry) 


Coefficiente di corr di Pearson, r cor (x,y) 
devo avere sd() e cov() 
Retta di regressione lm (y~x) 
con y=output e x=input 
y<-function (x) (m*x+q) 
abline () 
Valori attesi attesi<-round(predict(reg), digits=0) 
setNames (attesi, vettore richiesto) 
Per agire con un comando sulla singola comando (dataframe singola variabile) 
variabile del dataframe 


Estremi del range range (dataframe singola variabile 


Più piccolo e più grande valore di tutta la | range (dataframe) 
tabella 


) 
Ampiezza del rang range (dataframe $ singola variabile) [2]- 
range (dataframe $ singola variabile) [1] 
j labile) 
) 


Intervallo interquartile IQR(dataframe $ singola variabile 
[(aictanza era ati  — | e e 
Parametri di centralità per tutte le coppi summary (dataframe 


Parametri di dispersione per tutte l cov(dataframe) 
coppie di variabili 
(covarianza e coeff. Di Pearson) cor(dataframe) 


1 Gavioli Alice 


DI 
“ 


Probabilità 
P(A) 


Complementare 


Assiomi di Kolmogorov 


Spazio di probabilità (Q,a,P) 


1. Probabilità del complementare 


A U B= {x EQ; x E A 0 x E B} 


ANB = {x EQ; x E A e x E B} 
A%c = {x EQ; x EA} 

(AVA^cC) =Q 

(ANA*c)=0 

e0sP(A)S1 

e P(0) 


P (AC) 
P (0) 


P(B) = P(B A A)+ P(B A A°C) 


4 
: E 


. Probabilità dell’unione di eventi non 


P (AUB) =P (A) +P (B) -P (ACB) 


P(AUBUC) = P(A)+P(B)+P(C) 
-P (AQB) -P(ANC)- (BOC)+P(ANBNC) 


P (AQB) =P (A) *P (B) 


solo se A e B sono indipendenti 


Eventi indipendenti 

Spazio di probabilità uniforme P(A)=P(|JA])*p=]|A|/]9Q] 
A EES 

Valore atteso=media, mu, E[x] sum(x*x) 
n*p 
sum 
n*p 


x-mu)? x 


( 
(1-p) 


Deviazione standard, sigma sqrt (sigma2) 
factorial (n) 
choose (n, H) 


p(k)=P(x=k)=(n K)p*(1-p)n& 
dbinom(k,size=n,prop=p) 


+tl:in,s1ze=n, prop=p)) 


l-pnorm(a,mean=mu, sd=sigma) 


pnorm(a,mean=mu, sd=sigma, lower.tail=FALSI 
pnorm(b,mean=mu, sd=sigma) - 
pnorm(a,mean=mu, sd=sigma) 


pnorm(a,mean=mu, sd=sigma) 


Pla < Z < b) 


P(x < a) 


DISTRIB. DENSITA’ pdf RIPARTIZIONE cdf QUANTILI ORDINE @ 
x-unif[a,b] dunif(x,min=a,max=b) punif(x,min=a,max=b) qunif(a,min=a,max=b) 
uniforme 

( ) ( ) 


x~N (u, 82) pnorm(x,mean=u, sd=ò 
normale 

standard 
x=B (n, p) 
quantili 


dnorm(x,mean=u, sd=ò gnorm(a,mean=u, sd=òd) 


dbinom(x,size=n,prob=p) pbinom(x,size=n,prob=p) qbinom(a,size=n,prob=p) 
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% Statistica inferenziale 


Media u e deviazione standard © NOTE 


Valore atteso E[x]= u 


«| vVarian}\\)À))@©@©ÈJ)0© OE Varianza iÈ.e e Vara {i illl:ppe: | Var (x) = o?/n o OE 


Teorema del limite centrale x-N(4,02/n) 
con n 2 30 quindi non necessaria normalità del campione 


Errore statistico 


gnorm(1-(alpha/2),mean=0,sd=1) 


Livello di fiducia 


Intervallo di confidenza, cl 


Valore atteso 1 


«[/Vartama»@"’@ = = |] 
t — student 
Errore statistico 


qt(l-alpha/2, df=n-1) 


sostituito con Zi 


Livello di fiducia 1-0/2 
con n-1 gradi 


Intervallo di confidenza, 


IC=(xbar-E,xbar+ 
IC<-xbar+c(-E,E) 


Proporzione p di una popolazione bernoulliana 


Proporzione campionaria, phat phat=n°successi nel campione / n 
Ipotesi di lavoro n*phat 2 5 e n*(1-phat) 2 5 


Errore statistico _ di [phatx(1=phat) 
i n 


alpha/2),mean=0, sd=1) € qnorm(1-(alpha/2)) 


Livello di fiducia 


Intervallo di confidenza, cl 


IC=(phat-E, 
IC<-phatt+c ( 


P 


Stima della varianza, distr norm e varianza nota 


libertà 
Quantili 1*=X2 a/2, n qchisq( a df=n) 


Stima della varianza, distr norm e varianza NON nota 


Livello di Fiducia 
Quantili 1*=X2 a/2, n.1 qchisq(alpha/2, df=n-1) 
r*=X2 1-0/2, n-1 qchisq(1-alpha/2, df=n-1) 
qchisq(alpha/2, df=n-1, 
lower.tail = FALSE) 


Intervallo di confidenza (n- Ds? (n- 1)s? 
Gava) 
IC<- (n-1)*s2*c(1l/rstar, 1/lstar) 


Livelli di confidenza minori forniscono stime intervallari più precise 


3 Gavioli Alice 


TEST di ipotesi con popolazione bernoulliana Z = 


Test a una cosa destra 


prop.test(x,n,p=p0,alternative="greater") 
round (n*phat) 


con x=n° successi del campione, 

n=ampiezza del campione 

pO=parametro teorico di confronto 
a una coda sinistra 


.test (x,n,p=p0,alternative="less") 


a 2 code 
.test (x,n,p=p0,alternative="two.sided") 


TEST di ipotesi per media con varianza NOTA Z 


= 


Test a una cosa destra 
> pvalue<-1-pnorm(z) 
> pvalue<-1-pnorm(z,mean=0,sd=1,lower.tail=FALSE) 


r= 


Test a una coda sinistra 
pvalue<-pnorm(z,mean=0,sd=1) 


pn 


rest a 2 code 


> pvalue<-2*(1-pnorm(abs(z))) 
> pvalue<-2*pt(abs(z),lower.tail=FALSE) 


p_p0 
[e 
n 

0: p=p 
A:p>p 


0 


Pvalue=P (Z>z) 


HO :p=p0 
A:p<p0 
Pvalue=P (Z<z) 
0:p=p0 
A:p#p0 

Pvalue=2P(Z>|z|)=2(1-P(Z<|z]|)) 


__ xbar-p0 
= —s— 


n 


HO : u=p0 

A: u>p0 

Pvalue=P (Z>z) 

0: u=u0 

A: u<u0 

Pvalue=P (Z<z) 

0: u=u0 

A:4# po 
Pvalue=2P(Z>|z|)=2(1-P(Z<|z])) 


xbar-p0 


TEST di ipotesi per media con varianza NON NOTA t = —_— 


em 


Test a una cosa destra 
t.test(x,mu=mu0,alternative="greater") 
Test a una coda sinistra 

> t.test(x,mu=mu0,alternative="less") 
> pvalue<-pt(t,df=(n-1) 


_ 


l'est a 2 code 

> t.test(x,mu=mu0,alternative="two.sided") 
> pvalue<-2*pt (abs(t),df=(n-1),lower.tail=FALSE) 
> _pvalue<-2* (1-pt (abs(t) df=(n-1))) 


TEST di ipotesi per la varianza (chi2)x° 


= 


lest a una cosa destra 
> pvalue<-1-pchisg(chi2,df=n-1) 
> pvalue<-pchisqg(chi2,df=n-1, lower.tail=FALSE) 


E 


rest a una coda sinistra 
pvalue<-pchisqg(chi2,df=n-1) 


= 


l'est a 2 code 
pvalue<-2*min (pchisq(chi,df=(n-1),lower.tail=TRUE), 
pchisqg(chi, df=(n-1),lower.tail=FALSE)) 


Test di ipotesi per la mediana, distrib 


= 


Test a una cosa destra 
wilcox.test(x,mu=m,alternative="greater”) 
Test a una coda sinistra 


wilcox.test(x,mu=m,alternative="less”) 


"o 


rest a 2 code 
wilcox.test(x,mu=m,alternative="two.sided” 


0:pu=pu0 
ip# pò 
lue=2P(T>|t]|)=2(1-P(T<|t])) 


(n-1)s2 

002 
0:02 = 602 
A:02 > 602 
lue=P (X>x2) 


0:02 = 602 
A:02 # 602 
Pvalue=2min(P(X<x?);P(X>x2)) 


NON nota TEST DI WILCOXON 
HO :mediana=m 
HA:mediana>m 
HO :mediana=m 
HA:mediana<m 


HO:mediana=m 
) | HA:mediana#m 
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% Test di confronto tra 2 proporzioni di 2 popolazioni bernoulliane 


p1-— p2 


p(1-p) 
ni + n2 


z test 


% Test di confronto tra medie di 2 popolazioni 
-varianza note 


xbar — ybar 
0x°% + oy 
N nx + ny 


z test, con pvalue<-pnorm(z) 


2 = 


-varianze NON note, ma uguali 


_ xbar — ybar 


s| nx + ny 


t.test(x,y,alternative="“grater”,var.equal=TRU! 


sp = deviazione standard pooled 


CI 
<~ 


“less”, 
“two.sided”, 


-varianze NON note, NON uguali 


_ xbar — ybar 


ha distribuzione di Fischer co nA — 1 e nB — 1 gradi di libertà 
EE + sy? f ci 


nx + ny 


G] 
—_ 


t.test(x,y,alternative="“grater”,var.equal=FALSI! 
“less”; 
“two.sided”, 


% Test di confronto sulle varianze 


s?A 


fe 


var.test(A,B,alternative="“grater”) 
“less”) 
“two.sided”) 


% Test di confronto tra mediane 


Wilcox.test(x,y,alternative="grater”) 
“less”) 
“two.sided”) 
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TEST di indipendenza 
n=(n°righe-1)*(n°colonne-1) 


Confronto tra distribuzioni di 
popolazioni 


TEST ANOVA a una via 


distrib. normale e stesse varianze (anche non note) 


TEST di ipotesi per (rho)p=0 


Pvalue piccolo > |t|grande 3 r prossimo a 1 
Pvalue grande > |t|piccolo > r prossimo a 0 


di pendenza e intercetta = 


0:le variabili sono indipendenti 

A:le variabili non sono indipendenti 

ostruiamo la tabella di contingenza: 
x<-rbind(rigasopra,rigasotto) 

chisqg.test (x) 

0:X ha distribuzione normale 

A:X NON ha distribuzione normale 

shapiro.test (x) 

0:X=X0 (modello compatibile con i dati) 

A:X#X0 (modello NON compatibile con i dati) 

chisqg.test(z,p=pt) 

on z=frequenze,pt=elementi 

0:la distribuzione si adatta al modello 

A:la distribuzione NON si adatta al modello 

s.test(x,”nome cdf”,distribuzione) 

0:X=Y (distrib. 2 popolaz. sono uguali) 

A:X#Y (distrib. 2 popolaz. NON sono uguali) 

s.test (x,y) 

0: 


A:almeno una delle u diversa dalle altre 
costruiamo un dataframe: 

l<-list(maggio=may, settembre=sep, dicembre=dec) 
d<-stack(1) 


oneway.test(colonnal-colonna2,data=d, 
var.equal=TRUE) 
var.equal=FALSI 
ipotizzabile l’uguaglianza tra le varianze 
HO:p=p0 = = uk 
HA:almeno una delle u diversa dalle altre 
costruiamo un dataframe: 


l<-list(maggio=may, settembre=sep, dicembre=dec) 
d<-stack(1) 


kruskal.test(colonnal-colonna2,data=d) 
HO:p=0 (NON c’è correlazion 
HA:p#0 (c’è 
Cor (x,y) 


> se non è 


lineare) 


correlazion 


lineare) 


n — 2 gradi di libertà 


Pvalue=2P (T>|t|) > cor.test (x,y) 

3 0 intercetta (betal=0 pendenza) 
HA: beta0#0 intercetta (betal#0 pendenza) 
reg<- lm(y-x) 
summary (reg) > summary (lm (y~x)) 


Gavioli Alice 


